১৯ সেপ্টেম্বর, ২০২৫বাংলা

ডেটা বিশ্লেষণের জন্য পান্ডাস গ্রুপবাই-এর ক্ষমতা উন্মোচন করুন। এই নির্দেশিকা আন্তর্জাতিক ডেটার জন্য ব্যবহারিক উদাহরণ সহ অ্যাগ্রিগেশন এবং ট্রান্সফরমেশন কৌশলগুলি অন্বেষণ করে।

পান্ডাস গ্রুপবাই অপারেশনস আয়ত্ত করা: অ্যাগ্রিগেশন বনাম ট্রান্সফরমেশন

পাইথনে ডেটা ম্যানিপুলেশনের ভিত্তি হিসেবে পান্ডাস ডেটা বিশ্লেষণ ও বোঝার জন্য একটি শক্তিশালী টুল সরবরাহ করে: the GroupBy operation. এই বৈশিষ্ট্যটি আপনাকে সাধারণ বৈশিষ্ট্যগুলির উপর ভিত্তি করে আপনার ডেটাকে গ্রুপে বিভক্ত করতে এবং তারপর এই গ্রুপগুলিতে ফাংশন প্রয়োগ করতে দেয়, যা অন্যথায় লুকানো থাকত এমন অন্তর্দৃষ্টি প্রকাশ করে। এই নিবন্ধটি দুটি মূল গ্রুপবাই অপারেশন: অ্যাগ্রিগেশন এবং ট্রান্সফরমেশন-এর গভীরে প্রবেশ করেছে, যা বিশ্বব্যাপী ডেটা পেশাদারদের জন্য উপযুক্ত ব্যবহারিক উদাহরণ এবং ব্যাখ্যা প্রদান করে।

গ্রুপবাই ধারণা বোঝা

এর মূলে, GroupBy একটি প্রক্রিয়া যা তিনটি প্রধান ধাপ জড়িত: বিভক্ত করা ডেটাকে গ্রুপে এক বা একাধিক মানদণ্ডের উপর ভিত্তি করে, প্রতিটি গ্রুপে স্বাধীনভাবে একটি ফাংশন প্রয়োগ করা, এবং ফলাফলগুলিকে একটি নতুন ডেটা কাঠামোতে সংযুক্ত করা। এই "বিভক্ত-প্রয়োগ-সংযুক্ত" কৌশলটি ডেটা বিশ্লেষণে একটি মৌলিক ধারণা এবং জটিল ডেটাসেটগুলি অন্বেষণের জন্য একটি নমনীয় কাঠামো প্রদান করে।

GroupBy-এর ক্ষমতা বিভিন্ন ডেটা টাইপ এবং কাঠামো পরিচালনা করার ক্ষমতায় নিহিত, যা এটিকে বিভিন্ন ডোমেনে প্রযোজ্য করে তোলে। আপনি একাধিক অঞ্চলের বিক্রয় ডেটা, বিভিন্ন ডিভাইস থেকে সেন্সর রিডিং, বা জনতাত্ত্বিক জুড়ে সোশ্যাল মিডিয়া কার্যকলাপ বিশ্লেষণ করছেন কিনা, GroupBy আপনাকে অর্থপূর্ণ অন্তর্দৃষ্টি বের করতে সাহায্য করতে পারে।

অ্যাগ্রিগেশন: গ্রুপগুলির মধ্যে ডেটা সংক্ষিপ্ত করা

অ্যাগ্রিগেশন হল প্রতিটি গ্রুপের জন্য সংক্ষিপ্ত পরিসংখ্যান গণনা করার প্রক্রিয়া। এই পরিসংখ্যানগুলি গ্রুপের বৈশিষ্ট্যগুলির একটি সংক্ষিপ্ত ওভারভিউ প্রদান করে, যা আপনাকে আপনার ডেটার বিভিন্ন অংশ তুলনা ও বৈসাদৃশ্য করতে দেয়। সাধারণ অ্যাগ্রিগেশন ফাংশনগুলির মধ্যে রয়েছে:

sum(): প্রতিটি গ্রুপের মধ্যে মানগুলির যোগফল গণনা করে।
mean(): প্রতিটি গ্রুপের মধ্যে গড় মান গণনা করে।
median(): প্রতিটি গ্রুপের মধ্যে মধ্যম মান গণনা করে।
min(): প্রতিটি গ্রুপের মধ্যে সর্বনিম্ন মান খুঁজে বের করে।
max(): প্রতিটি গ্রুপের মধ্যে সর্বোচ্চ মান খুঁজে বের করে।
count(): প্রতিটি গ্রুপের মধ্যে নন-নাল মানগুলির সংখ্যা গণনা করে।
size(): প্রতিটি গ্রুপের আকার প্রদান করে (নাল সহ)।
std(): প্রতিটি গ্রুপের মধ্যে স্ট্যান্ডার্ড ডেভিয়েশন গণনা করে।
var(): প্রতিটি গ্রুপের মধ্যে ভ্যারিয়েন্স গণনা করে।

অ্যাগ্রিগেশনের ব্যবহারিক উদাহরণ

আসুন একটি কাল্পনিক ই-কমার্স কোম্পানির আন্তর্জাতিক বিক্রয় ডেটার একটি ডেটাসেট বিবেচনা করি। ডেটাতে পণ্যের বিভাগ, বিক্রয়ের দেশ এবং বিক্রয়ের পরিমাণ সম্পর্কিত তথ্য অন্তর্ভুক্ত রয়েছে।

            
import pandas as pd

# Sample data
data = {
    'Category': ['Electronics', 'Clothing', 'Electronics', 'Clothing', 'Home Goods', 'Electronics', 'Clothing', 'Home Goods'],
    'Country': ['USA', 'UK', 'Canada', 'USA', 'Germany', 'UK', 'Canada', 'Germany'],
    'Sales': [100, 50, 75, 60, 80, 90, 45, 70]
}

df = pd.DataFrame(data)

print(df)

এটি আউটপুট হবে:


     Category  Country  Sales
0  Electronics      USA    100
1     Clothing       UK     50
2  Electronics   Canada     75
3     Clothing      USA     60
4   Home Goods  Germany     80
5  Electronics       UK     90
6     Clothing   Canada     45
7   Home Goods  Germany     70

উদাহরণ ১: প্রতি বিভাগে মোট বিক্রয় গণনা

প্রতিটি পণ্যের বিভাগের জন্য মোট বিক্রয় গণনা করতে, আমরা groupby() পদ্ধতি এবং তারপরে sum() অ্যাগ্রিগেশন ফাংশন ব্যবহার করতে পারি।

            
category_sales = df.groupby('Category')['Sales'].sum()
print(category_sales)

এটি আউটপুট হবে:


Category
Clothing       155
Electronics    265
Home Goods     150
Name: Sales, dtype: int64

উদাহরণ ২: প্রতি দেশে গড় বিক্রয় গণনা

একইভাবে, প্রতি দেশে গড় বিক্রয় গণনা করতে, আমরা mean() অ্যাগ্রিগেশন ফাংশন ব্যবহার করতে পারি।

            
country_sales = df.groupby('Country')['Sales'].mean()
print(country_sales)

এটি আউটপুট হবে:


Country
Canada     60.0
Germany    75.0
UK         70.0
USA        80.0
Name: Sales, dtype: float64

উদাহরণ ৩: একাধিক অ্যাগ্রিগেশন ফাংশন ব্যবহার করা

পান্ডাস আপনাকে agg() পদ্ধতি ব্যবহার করে একই সাথে একাধিক অ্যাগ্রিগেশন ফাংশন প্রয়োগ করতে দেয়। এটি গ্রুপের বৈশিষ্ট্যগুলির একটি ব্যাপক সারাংশ প্রদান করে।

            
category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', 'median', 'count'])
print(category_summary)

এটি আউটপুট হবে:


             sum   mean  median  count
Category                               
Clothing       155  51.666667    50.0      3
Electronics    265  88.333333    90.0      3
Home Goods     150  75.000000    75.0      2

উদাহরণ ৪: কাস্টম অ্যাগ্রিগেশন ফাংশন

আপনি ল্যাম্বডা এক্সপ্রেশন বা নামকরণকৃত ফাংশন ব্যবহার করে আপনার নিজস্ব কাস্টম অ্যাগ্রিগেশন ফাংশনও সংজ্ঞায়িত করতে পারেন। এটি আপনাকে নির্দিষ্ট পরিসংখ্যান গণনা করতে দেয় যা স্ট্যান্ডার্ড অ্যাগ্রিগেশন ফাংশনগুলিতে উপলব্ধ নয়।

            
# Custom function to calculate the range (max - min)
def custom_range(x):
    return x.max() - x.min()

category_summary = df.groupby('Category')['Sales'].agg(['sum', 'mean', custom_range])
print(category_summary)

এটি আউটপুট হবে:


             sum   mean  custom_range
Category                              
Clothing       155  51.666667          15
Electronics    265  88.333333          25
Home Goods     150  75.000000          10

ট্রান্সফরমেশন: গ্রুপগুলির মধ্যে ডেটা পরিবর্তন করা

অন্যদিকে, ট্রান্সফরমেশন কিছু গণনার উপর ভিত্তি করে প্রতিটি গ্রুপের মধ্যে ডেটা পরিবর্তন করা জড়িত। অ্যাগ্রিগেশনের বিপরীতে, যা প্রতিটি গ্রুপের জন্য একটি সংক্ষিপ্ত মান প্রদান করে, ট্রান্সফরমেশন মূল ডেটার প্রতিটি সারির জন্য একটি মান প্রদান করে, তবে মানটি সেই গ্রুপটির উপর ভিত্তি করে গণনা করা হয় যেটিতে সেই সারিটি অন্তর্ভুক্ত। ট্রান্সফরমেশন অপারেশনগুলি ডেটাফ্রেমের মূল সূচক এবং আকার বজায় রাখে।

ট্রান্সফরমেশনের সাধারণ ব্যবহারের ক্ষেত্রগুলির মধ্যে রয়েছে:

প্রতিটি গ্রুপের মধ্যে ডেটা স্ট্যান্ডার্ডাইজ করা।
প্রতিটি গ্রুপের মধ্যে র‍্যাঙ্ক বা পার্সেন্টাইল গণনা করা।
গ্রুপ পরিসংখ্যানের উপর ভিত্তি করে অনুপস্থিত মান পূরণ করা।

ট্রান্সফরমেশনের ব্যবহারিক উদাহরণ

চলুন, আমাদের আন্তর্জাতিক বিক্রয় ডেটা নিয়ে কাজ চালিয়ে যাই। আমরা প্রতিটি দেশের মধ্যে বিক্রয় পরিসংখ্যান সম্পর্কিত গণনা সম্পাদন করতে ট্রান্সফরমেশন প্রয়োগ করতে পারি।

উদাহরণ ১: প্রতিটি দেশের মধ্যে বিক্রয় ডেটা স্ট্যান্ডার্ডাইজ করা (Z-স্কোর)

ডেটা স্ট্যান্ডার্ডাইজ করা বলতে মানগুলিকে ০ গড় এবং ১ স্ট্যান্ডার্ড ডেভিয়েশন সহ রূপান্তর করা বোঝায়। এটি বিভিন্ন স্কেল এবং বিন্যাসের ডেটা তুলনা করার জন্য দরকারী। আমরা এটি অর্জনের জন্য transform() পদ্ধতি এবং একটি ল্যাম্বডা এক্সপ্রেশন ব্যবহার করতে পারি।

            
from scipy.stats import zscore

df['Sales_Zscore'] = df.groupby('Country')['Sales'].transform(zscore)
print(df)

এটি আউটপুট হবে:


     Category  Country  Sales  Sales_Zscore
0  Electronics      USA    100      1.000000
1     Clothing       UK     50     -1.000000
2  Electronics   Canada     75      1.000000
3     Clothing      USA     60     -1.000000
4   Home Goods  Germany     80      1.000000
5  Electronics       UK     90      1.000000
6     Clothing   Canada     45     -1.000000
7   Home Goods  Germany     70     -1.000000

Sales_Zscore কলামটিতে এখন প্রতিটি দেশের জন্য স্ট্যান্ডার্ডাইজড বিক্রয়ের মান রয়েছে। ০ এর উপরের মানগুলি সেই দেশের গড় বিক্রয়ের উপরে এবং ০ এর নীচের মানগুলি গড়ের নিচে।

উদাহরণ ২: প্রতিটি বিভাগের মধ্যে বিক্রয় র‍্যাঙ্ক গণনা

প্রতিটি বিক্রয়ের র‍্যাঙ্ক তার বিভাগের মধ্যে গণনা করতে, আমরা rank() ফাংশনের মধ্যে transform() পদ্ধতি ব্যবহার করতে পারি।

            
df['Sales_Rank'] = df.groupby('Category')['Sales'].transform(lambda x: x.rank(method='dense'))
print(df)

এটি আউটপুট হবে:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    100      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA     60     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

Sales_Rank কলামটি তার নিজ নিজ বিভাগের মধ্যে প্রতিটি বিক্রয়ের র‍্যাঙ্ক নির্দেশ করে। `method='dense'` আর্গুমেন্ট নিশ্চিত করে যে ক্রমানুসারে র‍্যাঙ্কগুলি কোনো ফাঁক ছাড়াই বরাদ্দ করা হয়।

উদাহরণ ৩: গ্রুপ গড়-এর উপর ভিত্তি করে অনুপস্থিত মান পূরণ করা

আসুন বিক্রয় ডেটাতে কিছু অনুপস্থিত মান প্রবেশ করিয়ে দিই এবং তারপর প্রতিটি দেশের গড় বিক্রয়ের উপর ভিত্তি করে সেগুলি পূরণ করি।

            
import numpy as np

# Introduce missing values
df.loc[[0, 3], 'Sales'] = np.nan

print(df)

# Fill missing values based on country mean
df['Sales_Filled'] = df['Sales'].fillna(df.groupby('Country')['Sales'].transform('mean'))
print(df)

অনুপস্থিত মান সহ প্রাথমিক ডেটাফ্রেমটি দেখতে এরকম হবে:


     Category  Country  Sales  Sales_Zscore  Sales_Rank
0  Electronics      USA    NaN      1.000000         3.0
1     Clothing       UK     50     -1.000000         2.0
2  Electronics   Canada     75      1.000000         1.0
3     Clothing      USA    NaN     -1.000000         3.0
4   Home Goods  Germany     80      1.000000         2.0
5  Electronics       UK     90      1.000000         2.0
6     Clothing   Canada     45     -1.000000         1.0
7   Home Goods  Germany     70     -1.000000         1.0

এবং অনুপস্থিত মানগুলি পূরণ করার পরে:


     Category  Country  Sales  Sales_Zscore  Sales_Rank  Sales_Filled
0  Electronics      USA    NaN      1.000000         3.0          NaN
1     Clothing       UK     50     -1.000000         2.0           50.0
2  Electronics   Canada     75      1.000000         1.0           75.0
3     Clothing      USA    NaN     -1.000000         3.0          NaN
4   Home Goods  Germany     80      1.000000         2.0           80.0
5  Electronics       UK     90      1.000000         2.0           90.0
6     Clothing   Canada     45     -1.000000         1.0           45.0
7   Home Goods  Germany     70     -1.000000         1.0           70.0

গুরুত্বপূর্ণ দ্রষ্টব্য: যেহেতু `USA`-এর জন্য কোনো বিদ্যমান গড় ছিল না, তাই `Sales_Filled`-এর ফলাফলস্বরূপ মানগুলি `NaN`। এই ধরনের প্রান্তিক কেসগুলি পরিচালনা করা নির্ভরযোগ্য ডেটা বিশ্লেষণের জন্য অত্যন্ত গুরুত্বপূর্ণ এবং বাস্তবায়নের সময় বিবেচনা করা উচিত।

অ্যাগ্রিগেশন বনাম ট্রান্সফরমেশন: মূল পার্থক্য

যদিও অ্যাগ্রিগেশন এবং ট্রান্সফরমেশন উভয়ই শক্তিশালী GroupBy অপারেশন, তবে তারা বিভিন্ন উদ্দেশ্য পূরণ করে এবং তাদের স্বতন্ত্র বৈশিষ্ট্য রয়েছে:

আউটপুট আকার: অ্যাগ্রিগেশন ডেটার আকার হ্রাস করে, প্রতিটি গ্রুপের জন্য একটি একক মান প্রদান করে। ট্রান্সফরমেশন মূল ডেটার আকার বজায় রাখে, প্রতিটি সারির জন্য একটি রূপান্তরিত মান প্রদান করে।
উদ্দেশ্য: অ্যাগ্রিগেশন ডেটা সংক্ষিপ্ত করতে এবং গ্রুপের বৈশিষ্ট্যগুলি সম্পর্কে অন্তর্দৃষ্টি অর্জন করতে ব্যবহৃত হয়। ট্রান্সফরমেশন গ্রুপগুলির মধ্যে ডেটা পরিবর্তন করতে ব্যবহৃত হয়, প্রায়শই স্ট্যান্ডার্ডাইজেশন বা নরমালাইজেশনের জন্য।
রিটার্ন মান: অ্যাগ্রিগেশন অ্যাগ্রিগেটেড মান সহ একটি নতুন ডেটাফ্রেম বা সিরিজ প্রদান করে। ট্রান্সফরমেশন রূপান্তরিত মান সহ একটি সিরিজ প্রদান করে, যা পরে মূল ডেটাফ্রেমে একটি নতুন কলাম হিসাবে যুক্ত করা যেতে পারে।

অ্যাগ্রিগেশন এবং ট্রান্সফরমেশনের মধ্যে নির্বাচন আপনার নির্দিষ্ট বিশ্লেষণাত্মক লক্ষ্যগুলির উপর নির্ভর করে। যদি আপনার ডেটা সংক্ষিপ্ত করতে এবং গ্রুপগুলি তুলনা করার প্রয়োজন হয়, তবে অ্যাগ্রিগেশন উপযুক্ত পছন্দ। যদি আপনার মূল ডেটা কাঠামো বজায় রেখে গ্রুপগুলির মধ্যে ডেটা পরিবর্তন করার প্রয়োজন হয়, তবে ট্রান্সফরমেশন একটি উন্নত বিকল্প।

উন্নত গ্রুপবাই কৌশল

মৌলিক অ্যাগ্রিগেশন এবং ট্রান্সফরমেশনের বাইরে, পান্ডাস GroupBy আরও পরিশীলিত ডেটা বিশ্লেষণের জন্য বিভিন্ন উন্নত কৌশল সরবরাহ করে।

`apply()` দিয়ে কাস্টম ফাংশন প্রয়োগ করা

apply() পদ্ধতি সর্বাধিক নমনীয়তা প্রদান করে, যা আপনাকে প্রতিটি গ্রুপে যেকোনো কাস্টম ফাংশন প্রয়োগ করতে দেয়। এই ফাংশনটি যেকোনো অপারেশন সম্পাদন করতে পারে, যার মধ্যে অ্যাগ্রিগেশন, ট্রান্সফরমেশন বা এমনকি আরও জটিল গণনা অন্তর্ভুক্ত।

            
def custom_function(group):
    # Calculate the sum of sales for each category in a group, only if there is more than one row in the group
    if len(group) > 1:
        group['Sales_Sum'] = group['Sales'].sum()
    else:
        group['Sales_Sum'] = 0  # Or some other default value
    return group

df_applied = df.groupby('Country').apply(custom_function)
print(df_applied)

এই উদাহরণে, আমরা একটি কাস্টম ফাংশন সংজ্ঞায়িত করি যা প্রতিটি গ্রুপের (দেশ) মধ্যে বিক্রয়ের যোগফল গণনা করে। apply() পদ্ধতি এই ফাংশনটি প্রতিটি গ্রুপে প্রয়োগ করে, যার ফলে সেই গ্রুপের বিক্রয়ের যোগফল ধারণকারী একটি নতুন কলাম তৈরি হয়।

গুরুত্বপূর্ণ দ্রষ্টব্য: apply ফাংশন অন্যান্য পদ্ধতির চেয়ে বেশি গণনাগতভাবে নিবিড় হতে পারে। বিশাল ডেটাসেট নিয়ে কাজ করার সময় আপনার কোড অপ্টিমাইজ করুন এবং বিকল্প বাস্তবায়ন বিবেচনা করুন।

একাধিক কলাম দ্বারা গ্রুপ করা

আপনি আপনার ডেটাকে একাধিক কলাম দ্বারা গ্রুপ করতে পারেন আরও বিস্তারিত সেগমেন্ট তৈরি করতে। এটি আপনাকে একাধিক বৈশিষ্ট্যের ছেদের উপর ভিত্তি করে ডেটা বিশ্লেষণ করতে দেয়।

            
category_country_sales = df.groupby(['Category', 'Country'])['Sales'].sum()
print(category_country_sales)

এটি Category এবং Country উভয় দ্বারা ডেটা গ্রুপ করবে, যা আপনাকে প্রতিটি দেশের মধ্যে প্রতিটি বিভাগের জন্য মোট বিক্রয় গণনা করতে দেবে। এটি বিভিন্ন অঞ্চল এবং পণ্য লাইন জুড়ে বিক্রয় কর্মক্ষমতার একটি আরও বিস্তারিত চিত্র প্রদান করে।

গ্রুপগুলির মাধ্যমে পুনরাবৃত্তি করা

আরও জটিল বিশ্লেষণের জন্য, আপনি একটি for লুপ ব্যবহার করে গ্রুপগুলির মাধ্যমে পুনরাবৃত্তি করতে পারেন। এটি আপনাকে প্রতিটি গ্রুপে স্বতন্ত্রভাবে অ্যাক্সেস করতে এবং এতে কাস্টম অপারেশন সম্পাদন করতে দেয়।

            
for name, group in df.groupby('Category'):
    print(f"Category: {name}")
    print(group)

এটি প্রতিটি পণ্যের বিভাগের মাধ্যমে পুনরাবৃত্তি করবে এবং সংশ্লিষ্ট ডেটা প্রিন্ট করবে। এটি কাস্টম বিশ্লেষণ সম্পাদন বা প্রতিটি বিভাগের জন্য প্রতিবেদন তৈরি করার জন্য দরকারী হতে পারে।

গ্রুপবাই ব্যবহারের সেরা অনুশীলন

GroupBy-এর কার্যকর এবং দক্ষ ব্যবহার নিশ্চিত করতে, নিম্নলিখিত সেরা অনুশীলনগুলি বিবেচনা করুন:

আপনার ডেটা বুঝুন: GroupBy প্রয়োগ করার আগে, আপনার ডেটা বুঝতে এবং প্রাসঙ্গিক গ্রুপিং মানদণ্ড এবং অ্যাগ্রিগেশন/ট্রান্সফরমেশন ফাংশনগুলি সনাক্ত করতে সময় নিন।
সঠিক অপারেশন নির্বাচন করুন: আপনার বিশ্লেষণাত্মক লক্ষ্যগুলির জন্য অ্যাগ্রিগেশন বা ট্রান্সফরমেশন কোনটি উপযুক্ত পছন্দ তা সাবধানে বিবেচনা করুন।
কর্মক্ষমতা অপ্টিমাইজ করুন: বড় ডেটাসেটের জন্য, ভেক্টরাইজড অপারেশন ব্যবহার করে এবং অপ্রয়োজনীয় লুপগুলি এড়িয়ে আপনার কোড অপ্টিমাইজ করার কথা বিবেচনা করুন।
অনুপস্থিত মানগুলি পরিচালনা করুন: আপনার ডেটাতে অনুপস্থিত মানগুলি সম্পর্কে সচেতন থাকুন এবং fillna() বা dropna()-এর মতো পদ্ধতি ব্যবহার করে সেগুলিকে যথাযথভাবে পরিচালনা করুন।
আপনার কোড নথিভুক্ত করুন: প্রতিটি GroupBy অপারেশনের উদ্দেশ্য এবং আপনার পছন্দের কারণগুলি ব্যাখ্যা করার জন্য আপনার কোডটি স্পষ্টভাবে নথিভুক্ত করুন।

উপসংহার

পান্ডাস GroupBy ডেটা বিশ্লেষণের জন্য একটি শক্তিশালী টুল, যা আপনাকে আপনার ডেটা বিভাজন করতে, প্রতিটি গ্রুপে ফাংশন প্রয়োগ করতে এবং মূল্যবান অন্তর্দৃষ্টি বের করতে সক্ষম করে। অ্যাগ্রিগেশন এবং ট্রান্সফরমেশন কৌশলগুলি আয়ত্ত করার মাধ্যমে, আপনি আপনার ডেটার সম্পূর্ণ সম্ভাবনা উন্মোচন করতে পারেন এবং অন্তর্নিহিত প্যাটার্ন ও প্রবণতাগুলির গভীরতর উপলব্ধি অর্জন করতে পারেন। আপনি বিক্রয় ডেটা, সেন্সর রিডিং, বা সোশ্যাল মিডিয়া কার্যকলাপ বিশ্লেষণ করছেন কিনা, GroupBy আপনাকে ডেটা-চালিত সিদ্ধান্ত নিতে এবং আপনার বিশ্লেষণাত্মক লক্ষ্যগুলি অর্জনে সহায়তা করতে পারে। GroupBy-এর ক্ষমতাকে আলিঙ্গন করুন এবং আপনার ডেটা বিশ্লেষণ দক্ষতাগুলিকে পরবর্তী স্তরে উন্নীত করুন।

এই নির্দেশিকাটি অ্যাগ্রিগেশন বনাম ট্রান্সফরমেশনের উপর ফোকাস সহ পান্ডাস গ্রুপবাই অপারেশনগুলির একটি ব্যাপক ওভারভিউ প্রদান করেছে। আন্তর্জাতিক ডেটার উপর এই কৌশলগুলি ব্যবহার করে, বিশ্বজুড়ে ডেটা বিজ্ঞানীরা বিভিন্ন ডেটাসেট থেকে গুরুত্বপূর্ণ ব্যবসায়িক অন্তর্দৃষ্টি বের করতে সক্ষম। অনুশীলন করুন, পরীক্ষা করুন এবং আপনার নির্দিষ্ট প্রয়োজন অনুযায়ী এই কৌশলগুলি তৈরি করুন পান্ডাস-এর সম্পূর্ণ সম্ভাবনা কাজে লাগাতে।

পান্ডাস গ্রুপবাই অপারেশনস আয়ত্ত করা: অ্যাগ্রিগেশন বনাম ট্রান্সফরমেশন

গ্রুপবাই ধারণা বোঝা

অ্যাগ্রিগেশন: গ্রুপগুলির মধ্যে ডেটা সংক্ষিপ্ত করা

অ্যাগ্রিগেশনের ব্যবহারিক উদাহরণ

উদাহরণ ১: প্রতি বিভাগে মোট বিক্রয় গণনা

উদাহরণ ২: প্রতি দেশে গড় বিক্রয় গণনা

উদাহরণ ৩: একাধিক অ্যাগ্রিগেশন ফাংশন ব্যবহার করা

উদাহরণ ৪: কাস্টম অ্যাগ্রিগেশন ফাংশন

ট্রান্সফরমেশন: গ্রুপগুলির মধ্যে ডেটা পরিবর্তন করা

ট্রান্সফরমেশনের ব্যবহারিক উদাহরণ

উদাহরণ ১: প্রতিটি দেশের মধ্যে বিক্রয় ডেটা স্ট্যান্ডার্ডাইজ করা (Z-স্কোর)

উদাহরণ ২: প্রতিটি বিভাগের মধ্যে বিক্রয় র‍্যাঙ্ক গণনা

উদাহরণ ৩: গ্রুপ গড়-এর উপর ভিত্তি করে অনুপস্থিত মান পূরণ করা

অ্যাগ্রিগেশন বনাম ট্রান্সফরমেশন: মূল পার্থক্য

উন্নত গ্রুপবাই কৌশল

apply() দিয়ে কাস্টম ফাংশন প্রয়োগ করা

একাধিক কলাম দ্বারা গ্রুপ করা

গ্রুপগুলির মাধ্যমে পুনরাবৃত্তি করা

গ্রুপবাই ব্যবহারের সেরা অনুশীলন

উপসংহার

`apply()` দিয়ে কাস্টম ফাংশন প্রয়োগ করা